ChatGPT 4V / GPT-4V 有哪些能力?

汇总

GPT-4V-能做什么

原图看这里

描述 - 简单地描述图像中的内容

解释 - 最重要的部分,解释图像的含义并提供更多背景信息。这一层次比表面层次的描述更深入。

Technical Flame Graph(技术火焰图)是一种可视化工具,用于分析和优化软件程序的性能。它通过展示程序在不同时间内各个函数或代码块的执行情况,帮助开发人员识别性能瓶颈和优化机会。

火焰图以一条垂直的时间轴表示程序执行的时间,在横向则展示了各个函数或代码块的层级关系。每个函数或代码块由一个色块表示,色块的宽度表示该函数在运行过程中所占用的时间比例,颜色则可以表示其他信息,比如函数调用深度或耗时。通过观察火焰图,开发人员可以快速识别出哪些函数占用了大部分的执行时间,从而指导性能优化的工作。

火焰图通常用于分析大型软件系统的性能问题,它能够帮助开发人员理解程序的运行情况和热点,优化关键函数或代码块,并改进程序的整体性能。

1711067515600646585photo1

1711067515600646585photo2

1711067515600646585photo3

1711067515600646585photo4

下面的演示了 ChatGPT-4V 成功解读了一张来自1954年的电路图,识别出了这个电路的功能(真空电子管组成的音频放大器),以及今天要怎么做一个类似的。

1710270517364867203-1

1710270517364867203-2

1710270517364867203-3

1710270517364867203-4

推荐 - 基于图像提供批评、建议变更或推荐

这个例子里,原作者拍了餐厅的菜单给 GPT-4V 询问哪个菜方便外带,并有利于解酒。

1710708040226226564

原作者通过一张自己网站的截图,让GPT-4V 以产品经理的角色,给出改进建议, GPT-4V 给出的详细的建议。

1707147314660270588-1

1707147314660270588-2

原作者把自己的画给GPT-4V 看GPT4-V 给出了一些绘画建议。 给出的建议类似

  1. 深度和阴影:可以在牛眼和鼻子周围的区域加深阴影,通过增加对比度,使其呈现更立体的效果。

  2. 纹理:真实的动物毛皮通常有各种颜色和色调的短划组合。可以在面部和脖子的边缘,特别是周围,加入更多的个体毛发细节,突出毛皮的纹理。

  3. 眼睛反射:可以在牛眼中添加微妙的光反射,使其更生动和有深度。因为眼睛通常是湿润的,捕捉到微小的闪光可以增加逼真感。

  4. 背景:虽然背景不需太过详细,但可以考虑添加一些渐变阴影或柔和的阴影。这样可以给人一种深度和距离感。

  5. 草地细节:考虑在绘画中草地的划痕长度和方向上添加一些变化,并可能混合几种不同的绿色,给草地更多立体感。

  6. 耳朵质感:可以在牛耳朵的内部增加一些阴影和细节,使其更有深度,看起来更凹陷。

  7. 签名:只是一个小细节,但也许可以把签名放在一个稍微低调的位置?签名固然好,但稍微低调一些可以让观众更专注于绘画本身。

 

转换 - 将图像转换为其他形式(代码、叙述等),或生成新的内容。这里有巨大的产品机会。

原作者通过给一张实例照片,让GPT-4V 给出这张照片在 Adobe Lightroom 要用什么设置.

 

1709333011135681012-1

1709333011135681012-2

1710199020499726535

提取 - 从图像中提取实体或提供结构化的输出

1710525260578410754

1708557028149673990

辅助 - 基于图像提供解决方案

1709638697644109984

 

 

1709382225748226191-2

1709382225748226191-1

 

评估 - 基于图像的主观判断

1710482288658481154-3

1710482288658481154-2

1710482288658481154-3

1710382165639270485

1709636152628527468

 

更深入了解

可以参考这篇技术论文:

https://arxiv.org/abs/2309.17421

这里有一份翻译:

https://card.weibo.com/article/m/show/id/2309404952763347108084


参考: https://x.com/GregKamradt/status/1711772496159252981?s=20